AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐
AAAI 2026 Oral | 通过视觉安全提示与深度对齐实现大型视觉语言模型的安全对齐随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。
随着大型视觉语言模型在多个下游任务的广泛应用,其潜在的安全风险也开始快速显露。研究表明,即便是最先进的大型视觉语言模型,也可能在面对带有隐蔽的恶意意图的图像 — 文本输入时给出违规甚至有害的响应,而现有的轻量级的安全对齐方案都具有一定的局限性。
Voyage AI Vet(以下简称 Voyage),一款「口袋兽医」的AI应用最近引起了我们的注意。不同于市面上那些套壳 ChatGPT 的聊天工具,Voyage 真的想用 AI 重塑宠物医疗。带着「给自家主子找个 24 小时私人医生」的期待,我们深度体验了这款产品。这一次,AI 带来的不是噱头,而是实打实的安全感。
一张照片,就能生成可直接用于仿真的3D资产。
据 ZP 获悉,AI for Science 领域的技术先锋企业「深度原理 Deep Principle」完成超亿元人民币A轮融资。本轮由戈壁创投管理的阿里巴巴创业者基金大湾区基金(简称AEF大湾区基金)与蚂蚁集团共同领投,现有股东联想创投、Taihill Venture 超额加注,BV百度风投继续加注,多家机构参与。
Beside 要解决的正是这个核心问题。他们并不是简单地在现有电话系统上加一层 AI,而是从底层重建了整个电话基础设施。这意味着他们能够直接接入电话网络,捕获每一通来电和短信,然后让 AI 在这些实时对话中发挥作用。
当AI能「看」见实验室的细节,能「听」见研究员的每一次反应,能「感知」实验进展的每一点变化——它的推理将不再局限于硅基世界。那时,AI将通过人类的双手,直接参与并改变物理现实。它或许将成为实验室中最勤奋、最可靠的「智能伙伴」。
相信这几天,大家把Nano Banana Pro已经玩疯了。
前 OpenAI 联合创始人、特斯拉 AI 总监 Andrej Karpathy 也一样。他在前几天发推,说自己「开始养成用 LLM 阅读一切的习惯」。Karpathy 在周六用氛围编程做了个新的项目,让四个最新的大模型组成一个 LLM 议会,给他做智囊团。
刚刚,Anthropic 发布了一项新研究成果。今天,他们发布的成果是《Natural emergent misalignment from reward hacking》,来自 Anthropic 对齐团队(Alignment Team)。他们发现,现实中的 AI 训练过程可能会意外产生未对齐的(misaligned)模型。
Meta 用一段文本构建可探索的 3D 世界。 这就是 Meta 最新公布的一项突破性研究 WorldGen:只需一段文本提示就能生成真正可导航、可交互、可以走进去探索的完整 3D 世界。